Esegui la generazione e le inferenze dei contenuti di Gemma

Quando vuoi eseguire un modello Gemma, devi prendere due decisioni chiave: 1) quale variante di Gemma vuoi eseguire e 2) quale framework di esecuzione dell'IA utilizzerai per eseguirlo? Un problema chiave per prendere entrambe queste decisioni riguarda l'hardware di cui tu e i tuoi utenti disponete per eseguire il modello.

Questa panoramica ti aiuta a prendere queste decisioni e iniziare a lavorare con i modelli Gemma. I passaggi generali per l'esecuzione di un modello Gemma sono i seguenti:

Scegli un framework

I modelli Gemma sono compatibili con una serie di framework di esecuzione dell'IA generativa. Uno dei fattori chiave per la presa di decisioni nell'esecuzione di un modello Gemma è costituito dalle risorse di calcolo di cui disponi (o avrai) per eseguirlo. La maggior parte dei framework di IA compatibili richiede hardware specializzato, come GPU o TPU, per eseguire efficacemente un modello Gemma. Strumenti come Google Colab possono fornire queste risorse di calcolo specializzate su base limitata. Alcuni framework di esecuzione dell'IA, come Ollama e Gemma.cpp, ti consentono di eseguire Gemma su CPU più comuni utilizzando architetture ARM o compatibili con x86.

Di seguito sono riportate le guide per l'esecuzione dei modelli Gemma con vari framework di runtime dell'IA:

Assicurati che il formato del modello Gemma di destinazione, ad esempio il formato nativo di Keras, Safetensors o GGUF, sia supportato dal framework scelto.

Seleziona una variante di Gemma

I modelli Gemma sono disponibili in diverse varianti e dimensioni, tra cui i modelli Gemma di base o core e le varianti di modelli più specializzati come PaliGemma e DataGemma, oltre a molte varianti create dalla community di sviluppatori di AI su siti come Kaggle e Hugging Face. Se hai dubbi su quale variante iniziare a utilizzare, seleziona l'ultimo modello Gemma con ottimizzazione delle istruzioni (IT) del core con il numero più basso di parametri. Questo tipo di modello Gemma ha requisiti di calcolo ridotti ed è in grado di rispondere a un'ampia gamma di prompt senza richiedere ulteriore sviluppo.

Quando scegli una variante di Gemma, prendi in considerazione i seguenti fattori:

  • Gemma core e altre famiglie di varianti come PaliGemma, CodeGemma: Consiglia Gemma (core). Le varianti di Gemma oltre alla versione principale hanno la stessa architettura del modello principale e sono addestrate per migliorare il rendimento in attività specifiche. A meno che la tua applicazione o i tuoi obiettivi non siano in linea con la specializzazione di una specifica variante di Gemma, è meglio iniziare con un modello Gemma di base.
  • Tarata in base alle istruzioni (IT), pre-addestrata (PT), perfezionata (FT), mista (mix): consiglia IT.
    • Le varianti di Gemma ottimizzate in base alle istruzioni (IT) sono modelli che sono stati addestrati a rispondere a una serie di istruzioni o richieste in linguaggio umano. Queste varianti di modello sono il punto di partenza migliore perché possono rispondere ai prompt senza ulteriore addestramento del modello.
    • Le varianti di Gemma preaddestrate (PT) sono modelli che sono stati addestrati per fare deduzioni sul linguaggio o su altri dati, ma non sono stati addestrati per seguire istruzioni umane. Questi modelli richiedono un'ulteriore addestramento o ottimizzazione per poter eseguire le attività in modo efficace e sono destinati a ricercatori o sviluppatori che vogliono studiare o sviluppare le funzionalità del modello e della relativa architettura.
    • Le varianti Gemma ottimizzate (FT) possono essere considerate varianti IT, ma in genere vengono addestrate per eseguire un'attività specifica o per avere un buon rendimento su un benchmark specifico di AI generativa. La famiglia di varianti PaliGemma include una serie di varianti FT.
    • Le varianti miste (mix) di Gemma sono versioni dei modelli PaliGemma che sono state ottimizzate con una serie di istruzioni e sono idonee per l'uso generale.
  • Parameters: consiglia il numero più piccolo disponibile. In generale, più parametri ha un modello, più è capace. Tuttavia, l'esecuzione di modelli più grandi richiede risorse di calcolo più grandi e complesse e in genere rallenta lo sviluppo di un'applicazione di IA. A meno che tu non abbia già stabilito che un modello Gemma più piccolo non può soddisfare le tue esigenze, scegline uno con un numero ridotto di parametri.
  • Livelli di quantizzazione: consigliamo la precisione dimezzata (16 bit), tranne per il tuning. La quantizzazione è un argomento complesso che si riduce alle dimensioni e alla precisione dei dati e, di conseguenza, alla quantità di memoria utilizzata da un modello di IA generativa per i calcoli e la generazione di risposte. Dopo che un modello è stato addestrato con dati ad alta precisione, in genere dati in virgola mobile a 32 bit, i modelli come Gemma possono essere modificati per utilizzare dati di precisione inferiore, ad esempio dimensioni di 16, 8 o 4 bit. Questi modelli Gemma quantizzati possono comunque avere un buon rendimento, a seconda della complessità delle attività, utilizzando al contempo molto meno risorse di calcolo e memoria. Tuttavia, gli strumenti per l'ottimizzazione dei modelli quantizzati sono limitati e potrebbero non essere disponibili nel framework di sviluppo dell'IA scelto. In genere, devi ottimizzare un modello come Gemma con piena precisione, quindi quantizzare il modello risultante.

Per un elenco dei principali modelli Gemma pubblicati da Google, consulta la Guida introduttiva ai modelli Gemma, elenco dei modelli Gemma.

Esegui richieste di generazione e inferenza

Dopo aver selezionato un framework di esecuzione dell'IA e una variante di Gemma, puoi iniziare a eseguire il modello e chiedergli di generare contenuti o completare attività. Per ulteriori informazioni su come eseguire Gemma con un framework specifico, consulta le guide collegate nella sezione Scegliere un framework.

Formattazione dei prompt

Tutte le varianti di Gemma basate su istruzioni hanno requisiti specifici per la formattazione del prompt. Alcuni di questi requisiti di formattazione vengono gestiti automaticamente dal framework che utilizzi per eseguire i modelli Gemma, ma quando invii i dati del prompt direttamente a un tokenizzatore, devi aggiungere tag specifici e i requisiti di tagging possono variare a seconda della variante di Gemma che utilizzi. Consulta le seguenti guide per informazioni sulla formattazione dei prompt delle varianti di Gemma e sulle istruzioni di sistema: